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Die folgenden Angaben sind den vom Anmelder eingerefchten Unterlagen entnommen 

Prufungsantrag gem. § 44 PatG 1st gestellt 

© Einheit zur Verarbeitung von numerischen und logischen Operationen, zum Einsatz in Prozessoren (CPU's), 
Mehrrechnersystemen, DatenfluBprozessoren (DFP's), digitalen Signal Prozessoren (DSP's) oderdergleichen 

® In Verbindung mit etner konfigurierbaren und zur Lauf- 
zeit umkonfigurierbaren Einheit zur Verarbeitung von nu- 
merischen und logischen Operationen (PAE), zum Einsatz 
in Prozessoren (CPUs), Mehrrechnersystemen, Daten- 
flufcprozessoren (DFPs), Digitalen Signal Prozessoren 
(DSPs), systolischen Prozessoren und programmierbaren 
Logikbausteinen (FPGAa), gesteuert von einer Ladelogik 
(PLU), wird folgende Konfigu ration vorgeschlagen; 
Es ist eine programmierbare Recheneinheit (EALU) zur 
Durchfuhrung der mathematischen und logischen Grund- 
funlctionen vorgesehen, deren Funktion und Vernetzung 
in Registern programmiert wird und in denen eine Viel- 
zahl von Daten, ohne Umprogrammierung der PAE, verar- 
beitet werden kann. 
B Zur Steuerung der Recheneinheit (EALU) ist eine Zu- 
■ standsmaschine (SM-UNrT) vorgesehen; ferner sind fur 
jeden Operanden (O-REG) und das Ergebnis (R-REG) Re- 
gister vorgesehen, die teilweise als Schiebe register aus- 
gefuhrt werden konnen. Die Ruckkopplung der Daten des 
Ergebnisregisters erfolgt uber einen Multiplexer 
(R20-MUX) auf einen Eingang der EALU. Eine Buseinheit 
(BM-UNIT) ermogticht den Abgriff der Daten von einem 
Bussystem bzw. das Einspeisen des Ergebnisses auf ein 
Bussystem, wobei die Buseinheit Daten an m eh re re Em p- 
fanger versenden kann und die Synchronisierung euch 
mehrerer Empfanger automatisch erfolgt. 
Der Buszugriff von der Datenverarbeitung in der EALU ist 
uber die Register entkoppelt, wobei jede PAE als unab- 
hangige Einheit betrachtet werden kann, so daS die ... 
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Beschreibung 

1. Hintergrund der Erfindung 

5 1.1 Stand der Technik 

In der Offenlegungsschrift DE 44 16 881 Al ist ein Verfahren zur Verarbeitung von Daten beschrieben. Dabei werden 
in ihrer Funktion und Veraetzung weitgehend frei konfigurierbare, homogen angeordnete Zellen verwendeL 
Unabhangig von der erwahnren Offenlegungsschrift werden 7.unehmend FPGA-Bausteine (frei programmierbare Txv 
10 gikbausteine) verwendet, urn Rechenwerke und Datenverarbeitungseinrichtungen aus einer Vielzahl einzelner Logikzel- 
len aufzubaucn. 

Ein weiteres bekanntes Verfahren ist der Aufbau von Daten verarbeitungseinrichtungen aus festen, programmgesteu- 
erten Rechenwerken mit weitgehend fester Vemetzung, sogenannten systolischen Prozessoren. 

15 1.2Problcmc 

1.2.1 Bausteine nachDE44 16 881 Al 

Bausteine nach dem in DE 44 16 881 Al beschriebenen Verfahren (im folgenden VPUs genannt) sind aufgrund der 
20 hohen Zahl kleiner Logikzellen sehr aufwendig zu konfigurieren. Zur Steuerung einer Logikzelle sind mehrere Steuer- 
Bil in einem slauschen Speicber (SRAM) anzugeben. Fur jede Logikzelle exisuert eine SRAM-Adrcsse. Die Zahl der zu 
konfigurierenden SRAM-Zellen ist sehr hoch, was zu einem erheblichen Platzbedarf und Zeitaufwand fur die Konfigu- 
ration und Umkonhguration eines solchen Bausteines ruhrt. Der hone Platzbedarf ist besonders unangenehm, da die Vfer- 
arbeitungsleistung einer VPU mit steigender Zahl der Zellen zunimmL Jedoch ist die verwendbare Flache eines Baustei- 
25 nes durch die Chipfertigungstechnologien begrenzL Der Preis eines Chips steigt etwa quadratisch zur Chipflache, Auf- 
grund der mehrfach abgebildeten Next-Neighbour Vernetzungsstruktur ist ein Broadcast, also das Senden von Daten an 
mehrere Empfanger gleichzeitig, unmoglich. Sollten VPUs im Betrieb umkonfiguriert werden, ist es zwingend erforder- 
lich kurze Umkonfigurationszeiten zu erreichen. Dagegen steht jedoch die groBe Anzahl an Konfigurationsdaten die be- 
nodgt werden, urn den Chip umzukonfiguricrcn. Es cxisticrt kcinc Moglichkcit Zellen von der \fcrsorgungsspannung zu 
30 trennen oder langsamer zu takten, um die Verlustleistung zu minimieren. 

1.2.2 FPGAs 

Fiir den beschriebenen Einsatzbereich interessante FPGAs bestehen zumeist aus Multiplexer oder Look-Up-Table 
35 (LUT) SlrukLuren. Zur Impleuienu'erung werden SRAM-Zellen eingeseizl. Aufgrund der Vielzahl an kleinen SRAM- 
Zellen sind sie sehr aufwendig zu konfigurieren. Es sind groBe Datenmengen erforderlich, die einen entsprechend groBen 
Zeitaufwand zum Konfigurieren und IJmkoniigurieren erfordern. SRAM-Zellen benotigen sehr viel Platz. Jedoch ist die 
verwendbare Flache eines Bausteines durch die Chipfertigungstechnologien begrenzL Der Preis steigt auch hier etwa- 
quadratisch zur Chipflache. SRAM basierende Technologie ist durch die Zugriffszeit auf den SRAM langsamer als direkt 
40 integrierte Logik. Obwohl viele FPGAs auf Busstrukturen aufbauen, sind keinerlei Broadcast-Moglichkeiten zum 
schnellen und effektiven Senden von Daten an mehrere Empfanger gleichzeitig gegeben. Sollen FPGAs im Betrieb um- 
konfiguriert werden, ist es zwingend erforderlich kurze Konfigurationszeiten zu erreichen. Dagegen steht jedoch die 
groBe Anzahl an Konfigurationsdaten die benodgt werden, FPGAs bieten keinerlei Unterstutzung fur eine sinn voile Um- 
konfigurierung im Betrieb. Der Programmierer hat da fur zu sorgen, daB der Vbrgang ordentlich ohne storende Einfliisse 
45 auf Daten und umgebende Logik ablSuft. Eine intelligente Logik zum Minimieren der Verlustleistung ist nicht vorhan- 
den. Es bestehen keine speziellen Funktionseinheiten, die eine Ruckmeldung der intemen Betriebszustande an die das 
FPGA steuemde Logik ermoglichen. 

1 .2.3 Systolische Prozessoren 

50 

Bei systolischen Prozessoren entfallt die Umkonfigurierung komplett, jedoch sind diese Prozessoren unflexibeU da sie 
einen starren intemen Aufbau besitzen. Befehle werden in jedem Zyklus neu dekodiert. Wie bereits in der beiden vorhe- 
rigen Abschnirtcn beschrieben fehlen Funktionen, die ein Broadcasting oder die effiziente Minimierung der Verlustlei- 
stung beinhalten. 

55 

1.3 Verbesserung durch die Erfindung, Aufgabe 

Die Erfindung umfaBt ein kaskadierbares Rechenwerk, das flexibel in seiner Funktion und \fernetzung konfigurierbar 
ist. Es benodgt walirendder Ausftihrung des Algorithmus keine Befehlsdekodierung. Es ist im Betrieb umkonfigurierbai; 

60 ohne EinfluB auf die umgebenden Rechenwerke, Verarbeiiungsmodule und Datenstrome zu haben. Die Menge der Kon- 
figuradonsdaten ist sehr klein t was sich gunstig auf Platzbedarf und Konfigurationsgeschwindigkeit auswirkt Um groBe 
Datenmengen schnell und effizient zu verteilen wird Broadcasiing tiber die intemen Bussysteme unterstutzt Das Re- 
chenwerk ist mit einer Stromsparfunktion ausgestattet, wodurch die Stromaufnahme komplett ausgeschaltet wird, ebenso 
existiert ein Taktteiler, der es ermoglicht das Rechenwerk mit einem geringeren Takt zu betrieben. Fiir Riickmeldungen 

65 der intemen Zustande an die exlemen Steuerungen siehen besondere Mechanismen zur Verfiigung. 
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2. Beschreibung der Erfindung 

2.1 Ubersicht iiber die Erfindung, Abstrakt 

Die Erfindung beschreibt den Aufbau einer Zelle im Sinne von DE44 16 881 Al oder bekannter FPGA Zellen. In 5 
diese Zelle integriert ist eine urn Sonderfunktionen erweiterte Arithmetisch-Tx>gische-Einheit (EALU), die die Datenver- 
arbeitung durchfUhrt. Die EALU wird iiber ein Funktionsregisterregister konfiguriert, dadurch sinkt die fiir die Konfigu- 
ration erforderliche Datenmenge erheblich. Die Zelle ist iiber ein Bussystem frei kaskadierbar, dabei ist die EALU vom 
Bussystem uber Ein- und AiLSgaberegister entkoppelt. Die Ausgaberegt'ster sind auf einen Eingang der EALU zuriickge- 
fuhrt urn serielle Operationen zu ermoglichen. Die Aufschaltung auf den Bus ubemimmt eine Bussteuereinheit, die den 10 
Bus entsprechend dem Busregister vemetzL Dabei ist die Einheit so konzipiert, daB das Vferteilen von Daten an mehrere 
Empfanger (Broadcasting) moglich isL Eine Synchronisationsschaltung steuert den Datenaustausch zwischen raehreren 
Zellen uber das Bussystem. Die EALU, die Synchronisationsschaltung, die Bussteuereinheit und die Register sind so ge- 
staltet, daB eine Zelle unabhangig von ihrcn Umgebungszellen im Betrieb umkonfiguriert werden kann. t)ber das Funic- 
tionsrcgistcr kann cin Strornsparmodus konfiguriert werden, der die Zcllc abschaltct, cbcnfalls konncn Takttcilcr cingc- 15 
stellt werden, die die Arbeitsfrequenz verringem. 

2.2 Dctailbcschrcibung der Erfindung 

Die Erfindung beschreibt den Aufbau einer Zelle (PAE=Processing Array Element) im Sinne von DE44 16 881 Al 20 
oder bekannter FPGA Zellen, dabei sind die PAEs zu einem Array (Processing Array = PA) kaskadierbar. Eine PAE isi 
aus einer Vielzahl von Funktionseinheiten aufgebaut: 

2.2.1 EALU 

25 

Das Rechenwerk besteht aus einer fest in Logik implementierten erweiterten Arithmetisch-Logischen-Einheit EALU. 
Eine EALU ist eine gewbhnliche Arithmetisch-Logische-Einheit nach dem Stand der Technik (ALU), die durch spezielle 
Funktionen, wie Zahler erweitert ist. Diese EALU ist in der Lage eine Vielzahl von arithmetischen und logischen Ope- 
rationcn durchzufuhrcn, ohnc hicr genau spczifizicrt werden zu musscn, da auf ALUs die dem Stand der Tbchnik cntsprc- 
chen zuruckgegriffen werden kann. Die EALU hat direkten Zugriff auf ihre eigenen Ergebnisse, diese werden wir nach- 30 
folgend beschrieben als Operand zuriickgefuhrt. Dadurch sind Zahler oder serielle Operationen, wie die serielle Multi- 
plikation, Division oder Rcihcncntwicklungcn, moglich. Die EALU licfert neben ihrcra Ergcbnis die Signalc CarryOut- 
AlessB und AequalB-Odetect. CarryOut-AlessB gibt entweder bei arithmetischen Operationen das Carry an, oder bei 
Vergteichen mitteis einer Subtraktion zweier Werte gibt der tibertrag, also CarryOut- AlessB, daB A < B, bzw. B < A, ab- 
hangig vom negierten Operanden an. Das Signal ist das ubliche Carry generiert durch einen Volladdiercr. AequalB-Ode- 35 
tect gibt an, daB das Ergebnis im Ergebnisregister R-REGsft gleich 0 isL Das Signal wird uber ein NOR aus dem Ergeb- 
nis generiert. Die Signale werden zur einfachen Auswertung von Zustanden verwendet und konnen an die PLU zuriick- 
geliefert werden. Weitere Statussignale sind je nach Anwendung implementierbar. 

Die Funktion der EALU wird in einem Funktionsregister (F-PLUREG) konfiguriert 

40 

2.2.2 O-REG 

Die Eingang soperanden der EALU werden in zwei unabhangige Operandenregister (O-REG) gespeichert. Dadurch 
stehen sie unabhangig des Zustandes der Einheit, die die Daten iiefert (Datensender) zur Verfugung. Dies ist notwendig 
urn eine Entkopplung vom Bus und eine freie Umkonfigurierbarkeit des PAs zu ermoglichen. Eines oder beide O-REG 45 
besitzen eine Schiebefunktion, die von der EALU fiir ggf. jedes O-REG einzeln angesteuert wird. Die Schiebefunkdon 
ermoglicht das Durchfuhren von seriellen Operadonen wie serielles Multipiizieren oder Dividieren im EALU. O-REG 
mit Scheibefunkuon werden als O-REGsft bezeichnet. 

2.2.3 R-REGsft 50 

Das Ergebnis der EALU wird in einem Ergebnisregister gespeichert (R-REGsft). Dadurch wird die zeitliche Unabhan- 
gigkeit von der oder den das Ergebnis empfangenden Einheiten (Datenempfanger) errcicht. Das R-REGsft besitzteine 
Scheibefunktion, die von der EALU angesteuert wird, wodurch serielle Operadonen ermoglicht werden. 

55 

2.2.4 R20-MUX 

Die Ergebnisdaten, die in R-REGsft steben, werden uber einen Multiplexer (R20-MUX) zwischen einem der O-REG 
und der EALU als Operand eingeschleift, urn eine RUckkopplung des Ergebnisses fiir serielle Operationen, Zahler und 
ahnliche Funktionen zu gewahrleisten. Der Multiplexer wird durch das F-PLUREG eingestellL 60 

2.2.5 Taktzyklen 

Es ist sinnvoll, jedoch nicht zwingend erforderlich, die O-REG(sft) bei einer Taktflanke anzusteuem und die R-REGsft 
bei der darauffolgend negierten Taktflanke. Dadurch hat die EALU einen Halbtakt zur Ausfuhrung ihrer Funktion zur 65 
Verfllgung, der zweite Halbtakt steht fiir Signallaufzeiten und Multiplexer zur VerfUgung. Dadurch wird es mGglich in je- 
dem Takt cine komplcttc Operation auszufuhrcn. 
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2.2.6 StateMachine, SM-Unit 

Zur Ablaufsteuerung in derEALU existiert eine SM-UNIT. Diese steuen die OREG und R-REGsft und deren Schie- 
befunktion, sowie R20-MUX. Dadurch wird erreicht, daB scriclle Operationen, Schicbe- und Zahlfunktionen einfach 
5 von der EALU durchgefiihrt werdea konnen. Die StateMachine ist dabei nach dem Stand der Tfechnik einfach zu imple- 
mentieren. 

2.2.7 Sync-UNIT 

10 Zur Synchronisation einer PAE innerhalb eines Arrays (PA) aus PAEs ist eine Synchronisationseinheit (Sync-UNIT) 
vorhanden. Diese wertet eine Reihe von Eingangssignalen, die ein HandshakeProtokoll ausfuhren, aus. 

rACK(h/l): Der Datenempfanger quittiert die empfangenen Daten. Dabei ist rACKh die Quittierung des hohen Ergebnis- 
bytes (Bit 8 bis 15) und rACKl die des niedercn Ergebnisbytes (Bit 0 bis 7). Beide werden verUNDet (rACKh UND 
15 rACKl) und crgcbcn das Signal rACK rACK ist nicht warn; wahrend cincr odcr bcidc Datenempfanger mit der \fcrar- 
beitung ihrer Daten beschartigt sind und wird wahr wenn die \ferarbeitung der Daten beider Datenempfanger abgeschlos- 
sen ist und das Ergebnis imR-REGsft des jeweiligen Datenerapfangers gespeichert ist Die Signale rACK(h/l) werden im 
wcitcrcn oftmals in ihrcr vcrUNDctcn Form als rACK (= rACKh & rACKl) bctrachtct. 

oRDY(l/2): Der Datensender signalisiert seine Bereitschaft neue Daten zu senden. oRDY ist nicht wahr, wahrend der 
20 Datensender mit der Verarbeitung seiner Daten beschartigt ist und wird warn; wenn das Ergebnis des Datensenders, das 
der Operand der PAE ist, zur Verfugung stent. Dabei ist oRDYl das Frcigabesignal des Datensenders des ersten Operan- 
den und oRDY2 das des Zweiten. Beide werden verUNDet (oRDYl UND oRDY2) und ergeben das Signal oRDY. 
oRDY ist nur wahr, wenn beide Datensender bereit sind Daten zu versenden. Die Signale oRDY(l/2) werden im weite- 
ren oftmals in ihrer verUNDeten Form als oRDY (=oRDYl & oRDY2) betrachtet. 

25 

Aus den Eingangssignalen und dem Zustand der Sync-UNIT, der zusammen mit der Ablaufsteuerung der EALU den Ge- 
samtzustand der PAE darstellt, werden Ausgangssignale generiert, die von den Sync-UNTIs der Datensender und -emp- 
fanger ihrerseits als Eingangssignale betrachtet werden. Zur Ablaufsteuerung der EALU werden deren Statusinformatio- 
ncn und das Register F-PLUREG verwendet 

30 

rRDY: Zeigt an, daB die PAE thre Daten verarbeitung beendet hat und ein Ergebnis im R-REGsft zur VerfUgung steht. 
rRDY wird als rRDYh und rRDYl an bcidc Datenempfanger ubcrtragen. Dabei handclt cs sich jedoch um dassclbc Si- 
gnal! 

oACK: Zeigt an, daB die PAE ihre Operanden verarbeitet hat und neue Daten in den OREG(sft) aufnehmen kann. oACK 
35 wird ids oACKl und oACK2 an beide DaLensender ubertragen. Dabei handelt es sich jedoch ura dasselbe Signal! 

Die RDY-Signale behalten ihren Pegel bis zum Eingang der Quittierung durch ACK bei. Dies ist erforderlich wenn der 
Datenempfanger wahrend der Bereitstellung der Daten umkonfiguriert wird. Steht RDY bis zur Quittierung durch ACK 
an, so erkennt der Datenempfanger nach der Umkonfigurierung, daB Daten bereitstehen und nimmt sie an. 

Die Verkniipfung der Signale iiber mehrere PAEs stellt sich wie folgt dar: 

40 

Datensender PAE Datenempfanger 

rRDY — ► oRDY rRDY — ► oRDY 
rACK <— oACKrACK <— oACK 

45 Das bedeutet z. B. das Ausgangssignal rRDY des Datensenders stellt das Eingangssignal oRDYl oder oRDY2 der 
PAE dar. Das Ausgangssignal rRDY der PAE stellt das Eingangssignal oRDY des Datenempfangers dar 
Die Sync UNIT besitzt folgende Ablaufarten: 





Modus 


Beschreibung 


Bemerkung 


50 


Warten OP 


Die PAE wartet auf Operanden 


Nur wenn keine mehrzykli- 
sche Operation ablauffc 




Zyklus 1 


Eine einzyklische Operation 
wird durchgefiihrt 


Operanden werden quittiert 


55 


Zyklus n 


Ein Zyklus einer mehrzyklischen 
Operation wird durcbgefuhrt 






Zyklus Z 


Der letzte Zyklus einer 


Operanden werden quittiert 




mehrzyklischen Operation • 




60 




wird durchgefiihrt 




Warten ERG 


Die PAE wartet auf die 
Quittierung des Ergebnisses 


Nur wenn vorhergehendes 
Ergebnis exisistiert 




Stop 


AusfQhrung nach Beendigung des 






laufenden Zyklusses anhalten, 




65 




.dann ReConfig quittieren, wenn 
auch Ergebnis quittert wurde 





Die Sync-UNIT stellt einen besonderen Modus zur Verfugung, der das Taktsignal nur freigibt, wenn Operanden zur 
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Verfiigung stehen. Dieser Modus ist vor allem dann sinnvoll, wenn die Dalcnsender die Daten nicht in jedem Prozessor- 
takt liefem, sondern nur jeden n. Takt. Dabei entspricht der Takt einer Periode des Normaltaktes und wird uber rACK 
Oder oRDY(l/2) freigegeben. Die Freigabe wird als OneShot bezeichnet. Der Modus wird als OneShot-MODE bezeich- 
net. Dabei wird der Takt uber ein UND-Gatter mit einem der Freigabesignale verUNDeL Der Modus und die Signalaus- 
wahl findet uber das F-PLUREG statt. Das Freigabesignal, generiert iiber rACK oder oRDY(l/2), kann von der SM- 5 
UNTT verlangert werden. Dies ist erforderlich, damit Operalionen, die mehr als einen Takt benotigen im OneShot- 
MODE durchgeftthrt werden kbnnen. Um dies zu ermoglichen, wird eine entsprechende Signalleitung der SM-UNTT mit 
dem Freigabesignal verODERt. 

Wird der Registereintrag STOP im F-PLUREG geselzt, so fiihrt die Sync-UNTT die laufende Funktion zu Rnde. Da- 
nach werden keine weiteren Operanden mehr angenommen und quittiert. Sobald rACK anzeigt, daB das Ergebnis vom 10 
Datenempfanger angenommen wurde, wird die Umkonfigurierungsbereitschaft der PLU durch das Signal ReConfig an- 
gezeigt Das Signal wird generiert, indem rACK das Stop des F-PLUREG in ein D-FlipFlop speichert. ReConfig kann 
durch einen lesenden Zugriff der PLU auf F-PLUREG an der Bitposiuon von Stop abgefragt werden. 

Ebenfalls kann die Sync-UNTT dazu verwendet werden Fehlerzustande oder weitere Statussignale zu generieren und 
auszuwertcn. 15 

2.2.8 BM-UNTT 

Zum Aufschalten der Operanden und des Ergebnisses auf die extemen Bussysteme existiert eine Busraultiplexeinheit 
(BM-UNTT). Diese besteht aus 2 Multiplexern und 2 Tore, wobei die 2 Multiplexer fur die Operanden (O-MUX) und 2 20 
Tore fur das Ergebnis (R-GATE) existiercn, dabei wird jeweils ein Schalter fur das hoherwertige und niederwertige Er- 
gebnis verwendet. Die Multiplexer und Schalter werden uber das Multiplexerregister (M-PLUREG) gesteuert. Die Sync- 
UNIT-Signale werden uber die Schalter auf den Bus gesteuert Dabei ist die Zusammengehorigkeit der Multiplexer/ 
Schalter und Signale wie folgt: 

0-MUXl:oRDYl,oACK 25 
0-MUX2: oRDY2, oACK 
RH-GATE: rRDY, rACKh 
RL-GATE: rRDY, rACKL 

30 

Das R-GATE kann Uber das M-PLUREG in einen Zusiand gebracht werden, in dem es kein Bussystem treibt. 
Die Tabcllc gibt cine Bcschrcibung der Signale, sowic dcrcn jcwciligcr Intcrfacc-Struktur: 



Signal 


oRDY 


oACK 


rRDY 


rACK 


D7..0 


zeigt an 


Operanden 
bereit 


Operanden 
quittiert 


Ergebnis 
bereit 


Ergebnis 
quittiert 


Daten 


Typ 


Eingang 


Open-Kollektor 


Treiber 


Eingang 


Bidirektional 



Es ist moglich mehrere Datenempfanger von einem Datensender aus anzusprechen (Broadcasting). Hierzu schalten 40 
sich mehrere Datenempfanger auf denselben Bus. Um eine Quittierung der Daten zu gewahrleisten ist die Ireiberstufe 
der Quittierungsleitung oACK als Offener-Kolleklor-Treiber gcstalteL Dabei arbeitet der Bus als wired- AND, d h. erst 
wenn alle Datenempfanger quitueren entsteht der fur die Quiuierung erforderliche H-PegeL Dies wird dadurch erreicht, 
daB jeder Datenempfanger, der NICHT quittiert den Bus uber einen Open-Koliektor-Transistor auf einen L-Pegel zieht. 
Datenempfanger die quittieren, steuem den Open-Koliektor-Transistor nicht an und belasten somit den Bus nicht. Wenn 45 
alle Datenempfanger quittieren wird der Bus nicht mehr belastet und nimrat iiber einen PuU-Up-Widerstand H-Pegel an. 

2.2.9 StateBack-UNTT 

Die PAE ist in der Lage Ruckmeldungen uber ihren Betriebszustand an ihrc Ladelogik, im folgenden PLU genannt, zu 50 
liefem (vgl. DE44 16 881 Al). Die Ladelogik konfiguriert das PA und benotigu um sinnvolie Umkonfigurationen vor- 
nehmen zu konnen, Informauonen uber den Status der einzelncn PAEs. Dies geschieht uber die StateBack-UNTT. Diese 
ubertragt je nach Eintrag im F-PLUREG entwedcr die unicrcn 3-Bit des Ergebnisses aus dem R-REGsft - um berechnete 
Werte an die PLU zu liefem - oder die Signale CarryOut- AlessB und AequalB-Odetect auf einen 3-Bit Statusbus. Um das 
Aufschalten der Signale von mehreren PAEs aus zu ermbglichen wird ein einfaches wired-OR Verfahren uber Open-Kol- 55 
lektor-Treibem verwendet. Damit die Umkonfigurierung der PAE erst begin nt, wenn der Empfanger die Daten quittiert 
hat, kann zwischen den Signalen und den Open-Kollektor-Treibem eine Latch-Stufe eingeschleift werden, die die Si- 
gnale erst nach Eingang des rACK freigibt. Der Statusbus wird von der PLU iiberwacht. Diese reagiert in ihrem Pro- 
grarnmfluB und ihrer Umkonfiguraiion auf den vom Bus geliefenen Status. 

60 

2.2.10 Power- UNIT 

Die PAE besitzt einen Stromsparmodus (Sleep-MODE). der ebenso wie die Funkuon der EALU im F-PLUREG ein- 
gestellt wird. Hierfiir existiert ein Bit, das, wenn es gesctzt isu den Sleep-MODE einschalteL Hierzu kann entweder die 
Takdeitung der PAE auf konstant logisch 0 oder 1 geseta werden. oder uber einen Transistor die Spannung der PAE ab- 65 
geschaltet werden. Das F-PLUREG steht innerhalb der PAE immer unter Spannung und ist nicht abschaltbar. FUr die je- 
weils ausgcfiihrtc Funktion unbenutztc Bcrcichc (Gaiter) der PAE wcrdco durch Auswcrtung des F-PLUREG abgcschal- 
tet. Dies geschieht iiber einen Transistor, der die Bereiche von der Spannungsversorgung trennt. Um unerwunschte Stor- 
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einfl iisse zu verhindern sind die Ausgange der Bcrciche uber Pull-Up/Pull-Down-Widcrstande dcfiniert 

Zusatzlich kann innerhalb des OneShot-MODE, der von der Sync-UNTT gesteuert wird, der PowerSave-MODE ver- 
wendet werden. Dabei werden samtliche Teile der PAE, mit Ausnahme von F-, M-PLUREG und Sync-UNTT von der 
Versorgungsspannung getrennL Erst wenn die Sync-UNTT einen OneShot feststellt, werden alle benotigten PAE- Teile 
5 uber die Power-UNIT zugeschaltet. Die Sync-UNTT verzogert das Taktsignal so Iange, bis alle neu zugescbalteten Teile 
arbeitsfahig sind. 

2.2.11 Register 

10 Die Register F-PLUREG und M-PLUREG sind mit dem FLU-Bus verbunden. Die Adresse der von der PLU gesende- 
ten Datenpakete werden in einem \fergleicber dekodiert. 1st die Adresse der PAE erkannt, so werden die Daten in die Re- 
gister gespeichert. Der PLU-Bus ist wie folgt gestaltet: 

AX7 ... 0: X- Adresse der X/Y-Matrix 
15 AY7 ... 0: Y-Adrcssc der X/Y-Matrix 

RS: Register Select, logisch 0 wahlt F-PLUREG, logisch 1 wahlt M-PLUREG aus. 

AEN: Adress Enable, der Bus enthalt eine gtiltige Adresse. Die Adressen mQssen dekodiert werden, solange AEN lo- 
gisch 0 ist. AEN ist wahrend des gesamten Buszugriffcs, also auch wahrend der Datcniibcrtragung logisch 0. 
D23 . . . 00: Daten 

20 DEN: Data Enable, der Bus enthalt giiltige Daten. Die Daten miissen bei steigender Flanke des Signals DEN in das Re- 
gister uberlragen werden 

OEN: Output Enable, die PLU liest giiltige Daten aus den PLUREGs. 

Der Aufbau des F-PLUREG 

25 

1. Der Registeraufbau beim SchreibzugrirT 



|F11 


F10..9 


FS 


F7..6 


F5 


F4..0 | 


Stop 


StateBack 


Sleep 


OneShot 


PowerSave 


EALU function 



Die Funktionen der einzelnen Bit 

35 



Funktioa 


Zustand 


Wirkung 


Stop 


0 


Norm ale Funktion 




1 


Funktionen nach laufendem Zyklus anhalten, 






keine Quittiemng der Operanden 


StateBack 


00 


keine Ruckmeidung, Bus offen 




01 


D2..0 auf Bus 




10 


CarryOut-AlessB, AequalB-Odetect auf Bus 




11 


illegal 


Sleep 


0 


keine E\inktion, spannungslos 




1 . 


nonnale Funktion, Spannung 


OneShot 


00 


normale Funktion 




01 


OneShot auf oRDYl 




10 


OneShot auf oRDY2 




11 


OneShot auf (rACKh k rACKl) 


'PowerSave 


0 


kein PowerSave 




1 


Stromspannodus in Verbindung mit OneShot 


EALU function 


00000 


keine Operation (NOP) 




00001 








Funktion gemAfl Ausfuhrung der EALU 




11111 





60 

Der Reset-Zustand ist 0 in alien Bits. 
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2. Der Regis teraufbau bcim Lesezugriff 



Fl.l 

ReConfig 



Die Funktionen dereinzelnen BiLs 

10 



Funktion 


Zustand 


Wirkung 


ReConfig 


0 
1 


Keine Unikonfigurieruiig mOglich 
Umkonfiguriening mflglich 



Der Reset-Zustand ist 0 in alien Bits. 



Der Aufbau des M-PLUREG 

20 



M23..18 


M17..12 j 


M11..06 


M05..00 


Ergebnis hoherwertig 


Ergebnis niederwertig 


Operand 1 


Operand 0 



Die Werte M(n+5) . . . n = 000000, n e (0, 6, 12, 18} bedeuten, daB die MuLtiplexer/Schalter oflen sind und keinen 
Buskontakt besitzen. Es kann sinnvoll sein, das M-PLUREG liber das Signal ReConfig zu sperren, d. h. sobald ReConfig 
aktiviert wird, schaltet sich die PAE von alien Bussystemen ab. Der Reset-Zustand ist 0 in alien Bits. 

2.3 Zusammenfassung 30 

Durch die Rcduzicrung der Konfigurationsdatcn auf das Register F-PLUREG kann die Funktion des PAE cinfachcr 
und schneller konfiguriert und umkonfiguriert werden, als in bekannten Technologies ins besondere der FPGA-Techno- 
iogie. Die Vernetzung des Rechenwerkes wird im M-PLUREG angegeben, wahrend in den herkommlichen Technolo- 
gien eine Vielzahl einzelner, nicht zusanmienhangender Konfigurauonsbits beselzl werden miissen. Durch die klare 35 
Struktur der Register wird eine (Um)Konfiguration vereinfacht. 

Der Platzbedarf des PAE ist durch die direkte Ausgestaitung als Rechenwerk kleiner als in herkommlichen Technolo- 
gien, in denen Rechenwerke durch eine Vielzahl von Logikzelien implementiert wurden. Gleichzeitig sind die Durch- 
laufverzbgerungen geringen und die erzielbaren Taktfrequenzen entsprechend hoher. 

Eine Broadcasting-Funktion ist durch die Ausgestaitung der BM-UNIT gewahrleistet, die Quittierung erfolgt automa- 40 
tisch. Durch die ein- und ausgangsseitigen Register (O-REG, R-REG) ist ein zeitlich weitgehend unabhangiger Daten- 
transfer gewahrleistet. 

Die Kon figuration und Umkonfiguration wird durch die Entkopplung jeder PAE vom Gesamtsystem uber die Register 
O-REG und R-REG erheblich vereinfacht, da die einzelnen PAEs weitgehend voneinander unabhangig sind. Die Riick- 
meldungen an die PLU, sowie das Zusammenspiel von STOP und ReConfig ermoglichen die effiziente Steuerung der 45 
(Um)Konfigurauonen. 

Es sind Stromsparfunktionen implementiert, die - teilweise automatisch (OneShot-MODE) - zu einer Reduzierung 
des Leistungsverbrauches fuhren. 

Die PAE-Struktur kann zur Erhohung der Effizienz von FPGAs in deren Architektur implementiert werden. Dadurch 
sind arithmetische Operationen erheblich leistungsfahiger realisierbar. 50 

3. Kurzbeschreibung derDiagramme 

Fig. 1 Anordnung mehrerer PAEs zu einem PA mit PLU. Ohne Verbindung zu Ein-/Ausgabesystemen oder Speicher. 
Fig, 2 Aufbau einer PAE. 55 
Fig. 3 Aufbau von F-PLUREG und M-PLUREG. 
Fig. 4 Aufbau eines O-REG. 

Fig. 5 Aufbau eines O-REGsft mit rechtsschiebe-Funktion. 

Fig. 6 Aufbau eines R-REGsft mit rechts/links i-2bit Barrel- Shifter. 

Fig. 7 Aufbau des R20-MUX, sowie Implementierung eines MUX in Transfer-Gate-Technik. 60 
Fig. 8 Taktsynchronisation, Verzogerungen und synchron Signale 
Fig. 9 Funktionsweise der Sync-UNIT. Beschreibung. 
Fig, 10 Aufbau der Power-UNTT 
Fig. 11 Aufbau der Sync-UNIT 

Fig. 12 Aufbau der BM-UNIT 65 
Fig. 13 Aufbau eines O-MUX, begrenzt auf 4 Bussysteme 
Fig. 14 Aufbau cincs R-GATE, begrenzt auf 4 Bussysteme 
Fig. 15 Aufbau der StateBack-UNIT 



7 



DE 196 51 075 Al 



Fig. 16 Funktionsprinzip des OneShot- und OncShot/PowcrSavc-MODR 

4. Detailbeschreibung der Diagramme 

5 Fig. 1 stellt einen vereinfachten Prozessor gemaB DE 44 16 881 A 1 dar. Zudem ist die PLU (0101) und deren Bussy- 
stem (0102) angezeigt Die PAKs (0103) sind als Array eingetragen, das chipinteme Bussystem (0104) ist schematisch 
dargestellt. 

Fig. 2 zeigt den schematisierten Aufbau einer PAE. Das chipinteme Bussystem (0201) wird an die BM-UNIT (0202) 
gefuhrt, welche die durch M-RFXJ (0203) ausgewahlten Busse an das O-RFGlsft (0204) als Operand t und das ORFG 

10 (0205) als Operand 2 weiterschaltet. In den Datenpfad von Operand 2 wird uber den R20-MUX (0206) das im Ergeb- 
nisregister R-REGsft (0207) stehende Ergebnis wahlweise eingeschleifi Die Daten aus O-REGsft (0204) und R20- 
MUX (0206) werden im ELAU (0208) verarbeitet. Uber die StateBack-UNIT (0209) finden Ruckmeldungen an die PLU 
start. Der PLU-Bus (0210) hat Vexbindung zu den Registern F-FLUREG (021 1) und M-FLUREG (0212), sowie der Sta- 
teBack-UNIT (0209). Uber ihn wird die PAE konfiguriert und uberwacht. Das F-PLUREG enthalt alle funktionellen 

15 Konfigurationsdatcn, das M-PLUREG enthalt die \fcrnctzungsinformation der PAE. Die Sync-UNTT (0212), stcucrt das 
Zusammenspiel des Datenaustausches zwischen den Datensendem, den Datenempfaogera und der \ferarbeitungs-PAE. 
Die SM-UNTT (0213) steuert den gesamten intemen Ablauf der PAE. Die Power-UNIT (0214) regelt die Strom versor- 
gung und dicnt der Rcduzicrung des Stromvcrbrauchcs. 

In Fig. 3 wird die Funkuonsweise der Register M-PLUREG und F-PLUREG verdeutlicht. Die Adressen AX und AY 

20 des PLU-Bus (0308) werden in einem Vergleicher (0301 ) mit der Adresse der PAE vergiichen. sofem AEN (Adress En- 
able) einen giilugen Busiransfer anzeigl. Dabei besilzt jede PAE eine eindeuuge Adresse, die sieh aus ihrer Spalte und 
Zeiie innerhalb einer PA zusammensetzt. Zeigt DEN (DataEnable) die Datenubertragung an, so wird uber RS (Register- 
Select) entweder M-PLUREG (0302) oder F-PLl JREG (0303) ausgewahlt Bei der steigenden Hanke von DEN werden 
die Daten im betreffenden Register gespeichert Die Register sind als D-FlipFlop (0304) implementiert Zur \ferdeudi- 

25 cbung des Ablaufes dient das Tuningdiagramm 0305. Zum lesenden Zugriflf auf das F-PLUREG wird lediglich uber das 
Tor (0306) das Signal ReConfig von der Sync-UNTT an den PLU-Bus gegeben. Die Freigabe geschieht uber das Ergebnis 
des Vergleichers (0301) UND dem Signal OEN. 

Fig. 4a zeigt das Blockdiagramm des O-REG. In Fig. 4b ist der Aufbau des O-REG aus D-FlipFlops ersichtlich. Das 
Tuningdiagrarnm ist in Fig. 4c dargestellt. Der Takt wird von der SYNC-SM gencricrt. 

30 Fig. 5a zeigt das Blockdiagramm des O-REGsrl In Fig. 5b ist der Aufbau des O-REGsft aus D-FlipFlops (0501) er- 
sichtlich. Die UND-Gatter (0502) und das OR-Gatter (0503) biiden Uber den Inverter (0504) einen durch Mode gesteu- 
crtcn Multiplexer (0506), der entweder die Eingangsdatcn auf die D-FlipFlop (0501) schaltct, odcr die Ausgangsdatcn 
der D-FlipFlop um ein Bit verschoben an deren Eingang leitet. Das UND-Gatter (0505) ist nicht notwendig, da ein Ein- 
gang permanent auf iogisch 0 liegt. Es dient nurder Anschaulichkeit. In Fig. 5c ist das Tirningdiagramm in Abhangigkeit 

35 von dem Signal Mode angegeben. Der Takt wird von der SYNC-SM generierl. 

Fig. 6a zeigt den Blockaufbau des R-REGsft vor dem Register (0601) liegt ein Muldplexer (0602), der entweder die 
Eingangsdaten auf das Register (0601) schaltet, oder die Ausgangsdaten des Registers (0601) verschoben an dessen Ein- 
gang leitet. Der von der SYNC-SM generierte Takt wird um einen Halbtakt verschoben an das Register gefuhrt. In Fig. 
6b ist das Blockdiagramm auf Gatterebene dargestellt. Ober einen Dekoder (0603) schalten ModeO-2 einen aus UND- 

40 Gattem mit nachgeschaltetem ODER-Gatter bestehenden Multiplexer (0606). Dabei sind die gestrichelt eingezeichneten 
Gatter (0605 und weitere) nur der Verdeutlichung wegen eingezeichnet. Sie sind runktionslos, da ein Eingang standig auf 
L liegt Der Multiplexer schaltet im Zustand Mode0-2 = 010 das Eingangssignal auf die Register (0607). In den Zustan- 
den Mode0-2 - 000 bis ModeO-2 = 001 werden die Ausgangswerte der Register (0607) nach links, in den Zustanden 
ModeO-2 = 011 bis ModeO-2 =100 rechts, um ein bzw. zwei Bit verschoben, an die Eingange der Register gefuhrt. Die 

45 Scheibefunkuon wird in Abhangigkeit vom Zustand ModeO-2 im Timingdiagramm Fig. 6c verdeutlicht. 

Fig. 7a zeigt den Aufbau des Multiplexers R20-MUX, der in Abhangigkeit von Mode die Operanden oder das Ergeb- 
nis an die EALU weiterleitet. Dabei ist Fig. 7a als herkommlicher Multiplexer aufgebaut, wahrend in Fig. 7b die platz- 
und leistungssparende Variante durch die Verwendung von CMOS Transfer-Gates (0701) auf gezeigt wird. Alle in dieser 
Schrift beschriebenen beschriebenen Multiplexer konnen mittels TVansfer-Gates aufgebaut werden. 

50 Ein Tor kann aquivalent zum Multiplexer aus Transfer-Gates aufgebaut werden. Dabei ist jedoch die Richtung des Da- 
tenaustausches genau umgekehrt! 

Fig. 8 zeigt das VerhalUiis des PAE-internen Taktes CLK zu den stattfindenden Aktivitaten. Bei der steigenden Flanke 
(0801) werden die Operanden in die OREG gespeichert Wahrend des II-Pegels (0802) verarbeitet die PAE die Daten (A 
PAE = Verarbeitungsphase). Das umfaBt den Daten verkehr zwischen den O-REG und dem R-REG. Bei der fallenden 

55 Flanke (0803) wird das Ergebnis im R-REG gespeichert Der L-Pegel (0804) wird fur die \ferteilung der im Bussystem, 
eingeschlossen der BM-UNIT genutzt (A Network = Busphase). Der zeilliche Ablauf der von der SYNC-SM generierten 
Signale (oRDY und oACK, rRDY und rACK) ist in das Zeitdiagramm eingetragen. 

Das Ablaufdiagramm der Sync-UNTT ist in Fig. 9 dargestellt. Die Zustandsmaschine kennt zwei feste Zustande DA- 
TEN (0901) und ERGEBNIS (0902). DATEN wird auf die steigende Flanke synchronisiert, ERGEBNIS auf die Fal- 

60 lende. Dabei wird jeweils der Zustand der Eingangsparameter ausgewertet und je nach Ergebnis in den Zweig ja 
(0903/0904) oder nein (0905/0906) gesprungen. Sind in DATEN die Operanden nicht bereit, wird nein angesprungen. In 
den nachsten Schritten wird keine Operation ausgefuhrt, bis die Maschine nach DATEN zuriickspringt und eraeut aus- 
wertet. Steheo nun Operanden, angezeigt durch oRDY, bereit, werden die Operanden im O-REG (0907) gespeichert. Die 
Operanden werden verarbeitet (0908) und gleichzeiug wird ausgewertet (0909), ob es sich bei mehrzyklischen Operatio- 

65 nen (serielle Operationen, die raehr als einen Taktzyklus benotigen), um den letzte Zyklus handelt, oder ob eine einzy- 
klische Operation ablauft. In diesen Fallen werden die Operanden durch oACK quittiert (0910). Mit der fallenden Flanke 
wird ERGEBNIS synchronisiert. Dabei wird ubcrpriift ob das Flag Trgcbnis vorhanden" gesctzt ist (0911). Dieses Flag 
wird immer gesetzt, wenn ein fertiges Ergebnis durch rRDY signalisiert wird (0912). 
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In zwei Fallen wird in den JA-Zweig (0904) gesprungen: 

- Es ist kein vorhergehendes Ergebnis vorhanden (Flag "Ergebnis vorhanden" unwahr). 

- Es ist ein vorhergehendes Ergebnis vorhanden (Tlag "Ergebnis vorhanden" wahr) und dieses ist mit rACK quit- 
tiert. In diesem Fall (und nur in diesem Fall(!)) setzt 0902 das Ergebnis zuriick (0913). 5 

Ansonsten wird in den NEIN-Zweig (0906) gesprungen und keine Operation ausgefiihrt, bis die Zustandsmaschine 
nach ERGEBNIS (0902) zuriickkehrt. Im JA-Zweig (0904) wird das Ergebnis in das Ausgangsregister R-REGsft gespei- 
chert (0914). Danach wird ausgewertet ob es sich urn den let/ten Zyklus einer mehrzyklischen Operation handelt (0915) 
(vgL 0909) Oder ob eine einzyklische Operation ablauft, wenn ja, wird das \forhandensein des Ergebnisses durch rRDY io 
signalisiert (0916). Die Zustandsmaschine springt nach DATEN (0901) zuriick. Die Erkennung ob es sich um den letzten 
Zyklus einer Operation - oder um eine einzyklische Operation - handelt kann uber das Signal FINISH (0916) von der 
SM-UNIT abgefragt werden, Dieses ist aktiv, wenn der letzte - oder einzige - Zyklus stattfindet. Der SM-UNIT wird der 
Zustand der SYNC-UNIT uber RUN (0917) signalisiert RUN ist im Falle, daB eine Operation stattfindet aktiv, andern- 
falls inakuv. Der Mcchanismus des STOP-Eintragcs im F-PLUREG und des daraus gcncricrtcn RcConfig ist in Fig. 9 15 
nicht dargestellt, da der Ablauf trivial ist und aus der Beschreibung der SYNC-UNIT hervorgehL 

Fig. 10 zeigt den prinzipiellen Aufbau der Power-UMT. Das Signal Sleep wird von F-PLUREG auf einen Transistor 
oder cine Transistorstufc (1001) gclcitct. Dicsc stcucrt die Spannungsvcrsorgung fur allc abschaltbarcn Zcllfunktioncn. 
Die Sync-UNIT liefert das OneShotPowerSave-Signal (vgL Fig. 16), iiber welches die Spannungsversorgung der restli- 
chen Zeilfunktionen durch einen Transistor oder eine Transistorstufe (1002) freigegeben wird. Abhangig von den tat- 20 
sachlich verwendeten FunkLionen in der Zelle, schallen die TransiLoren oder Transistorslufen (1003) die nicht benoliglen 
Funktionen ab (PowerDown). Verstandlich ist, daB fur ordentliche Spannungsversorgung und EMV-Verhalten weitere 
entsprechende Vorkehrungen, wie Kondensatoren etc.. getrotfen werden mussen. 

Fig. 1 1 zeigt die Implementierung der Maschine aus Fig. 9 in das Konzept. Uber die BM-UNIT (1101) werden die Si- 
gnale oRDY(l/2) und rACK (vereinfacht dargestellt: tatsachlich exisuert rACKh und rACKl, rACK = rACKl & rACKh) 25 
zu den CCLK-gesteuerten Latches (1102) geschaltet. Dabei sind die Latch so geschaltet, daB sie in der L-Phase (Bus- 
phase) von CCLK transparent sind und in der H-Phase (Verarbeimngsphase) den Zustand halten. Die Ausgange der 
Latch stellen die Signale fur die Sync-StateMachine (1103) zur Verfugung. rRDY (vereinfacht dargestellt: tatsachlich 
cxisticrt rRDYh und rRDYl, dicsc sind vollkomrncn gleich, werden jedoch an vcrschicdcnc Empfangcr gclcitct) von 

(1103) wird uber Tor auf den Bus geschaltet. Die Signale oACK(l/2) von (1103) werden in der BM-UNIT (1101) negiert 30 
und an die wiederum invertierenden Open-Kollektor-Bustreiber (1104) geliefert. Der Bus wird Uber Widerstande (1105) 

auf H gczogen. Die BNI-UNTT ist dabci geschaltet, daB folgcndc Fallc cintrctcn: 

1. Wird der entsprechende Bus von der BM-UNIT nicht angesteuert, liegt an der Basis der Transistoren (1104) L 

an. Dadurch belasten sie den Bus nichL 35 

2. Wird der entsprechende Bus von der BM-UNIT angesteuert, und das Signal nicht quittiert, liegt an der Basis der 
Transistoren (1104) H an. Das bedeutet, daB der Bus auf L gezogen wird. Wird ein Ergebnis per Broadcasting an 
mehrere Datenempfanger verteilt, so Ziehen alle PAEs, die die Ergebnisdaten noch nicht quittiert haben und Warte- 
Zyklen benotigen den Bus auf L. 

3. Wird der entsprechende Bus von der BM-UNIT angesteuert, und das Signal quittiert, liegt an der Basis der Iran- 40 
sistoren (1104) L an. Das bedeutet, daB der Bus nicht belastet wird. Wird ein Ergebnis per Broadcasting an mehrere 
Datenempfanger verteilt, so belasten alle PAEs, die die Ergebnisdaten quittiert haben und keine Warte-Zyklen be- 
notigen den Bus nicht. 

Da der Bus in seinem Grundzustand den H-Pegel, also die Quittierung einnimmt ubersteuert die Nichtquittierung ge- 45 
maB Fall 2 die Quittierung, in dem sie den Bus auf L ziehL Dabei geht der Bus erst dann in den H-Pegel, also in den Quit- 
tierungszustand, wenn alle PAEs quittieren. Es ist somit eine Wtred-AND-Schaltung realisiert. Die Sync-StateMachine 
stellt das Signal RUN (1107) der SM-UNIT (1106) zur Verfugung. Diese lauft aufgrund von RUN an. Befindet sich die 
SM-UNIT im letzten - oder einzigen - ZYklus einer Verarbeitung, so signalisiert sie dies uber FINISH (1108) an die 
Sync-StateMachine. FINISH wird in den Auswerteeinheiten zur Erkennung des letzten Zyklus (0907, 0915) ausgewertet. 50 
Die SM-UNIT lauft synchron zum PAE-intemen Takt CLK. 

Fig. 12 zeigt den Aufbau der BM-UNIT. Abhangig von den Eintragen in das M-PLUREG schalten die Multiplexer 
(1201,1202) die Operanden vom internen Bus (1203) zu den O-REG. EbenfaUs schalten die Tore (1204, 1205) die untere 
und obere Halfte des Ergebnisses auf den Bus. Der Multiplexer 1206 schaltet die oRDY(l/2) gemaB der Stellung von 
1201 und 1202 und rACK gemafi der Stellung von 1204 und 1205 vom Bus in die PAE. Dabei werden die rACK beider 55 
Datenempfanger miteinander verUNDet. Exisuert nur ein Datenempfanger. so ist der Multiplexer so geschaltet, daB er 
start des fehlenden rACK eine logische 1 zuruckgibt. 1207 beinhaltet ein Gate zum Aufschalten der Signale oACK(l/2) 
und rRDY auf den Bus. Dabei werden die Signale oACK(l/2) zunachst invertiert und dann uber Open-Kollektor-Treiber 

(1104) auf den Bus geschaltet. 

Fig. 13 verdeutlicht den Aufbau eines O-MUX. Dabei existiert ein 3:5 Dekoder (1301) zum Auswerten der 60 
Model .0 Signale aus dem M-PLUREG. Der Multiplexer ist uber UND-Gatter (1302) mit nachgeschaltetem ODER- 
Gatter (1303) aufgebaut. Das Auswertesignal von Mode2 ... 0 = 000 des Dekoders (1301) ist dabei direkt auf die 
ODER-Gatter geschaltet (1304). Das bewirkt, daB in offencm Zustand, d. h. keine Verbindung zu einem Bussystem, im- 
mer logisch 1 zuriickgeliefert wird. (VgL mit Fig. 12 rACK). Zur Vereinfachung ist nur eine reduzierte BusgroBe darge- 

65 

In Fig, 14 ist der Aufbau eines R-GATE dargestellt Dabei exisuert ein 3 : 4 Dekoder (1401) zum Auswerten der 
Modc2 ... 0 Signale aus dem M-PLUREG. Das Auswertesignal von Modc2 ... 0 = 000 des Dekoders wird nicht vcr- 
wendet. Dadurch wird keine Busverbindung bei dieser Bil-Kombinadon hergestellt. Die Gates (1402) sind entweder 
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durch UND-Gatter oder Transmisson-Gates (vgl. 0701) aufgebaut. Dabei ist cine Verstarkerstufe zum lYeiben der Bus- 
last vor- oder nachgeschaltet Zur Vereiofacbung ist nur eine reduzierte BusgroBe dargestellt 

Die StateBack-UNTT ist in Fig. 15 dargestellL Gemafi der Einstellung im M-PLUKEG schaltet ein Multiplexer (1501) 
entweder die Signale CarryOut- AlessB, AequalB-Odetect von der EALU oder die Ausgange des R-REG R-REGD2 ... 0 
5 durch. Die Signale gelangen an eine Open-Kollektor-Transistor-Stufe (1502) und werden auf den PLU-Bus geschaltet. 
Dabei henotigt der PLU-Bus externe, nahe der PLU positionierte Pull-UjvWiderstande (1503). Das Latch 1504 ist optio- 
nal. Wird es in die Ausgangssignale von 1501 eingeschleift, werden diese erst auf den Bus (1503) geschaltet, nachdem 
der Datenempfanger die Daten uber rACK quittiert hat. Dadurch wird bewirkt daB die Bereitschaft zur Umkonfigurie- 
rung iiberdie Statussignale erst angezeigt wird, wenn die Daten auch angenommen wurden. Normalerweise wird dies 
10 durch das Zusammenspiel von STOP und ReConfig in der Sync- UNIT geregelt; daher ist das Latch optional. Das rACK 
wird dabei als Latch-Takt verwendet. Dabei ist das Latch bei rACK = 1 transparent und speichert bei rACK = 0. 

Fig. 16 verdeutlicht die Funktionsweise des OneS hot- MODE. Ober einen Multiplexer (1601) schalten die Signale 

- Vcc 

15 - oRDYl 

- oRDY2 

- (oRDYl & rACK) 

abhangig von der Einstellung im F-PLUREG den Zell-Takt frei. Dabei bewirkt die Freischaltung uber Vcc, daB der Takt 
20 immer lauft (siehe Tirrung-Diagramm "Normaier Betrieb"). In den 3 ubrigen Modi lauft der Takt erst an, wenn die Si- 
gnale, oder Signalkombinadonen den Takt freigeben. Die Freigabe wird durch ein Latch (1602) auf den Takt CCLK syn- 
chronisiert, damit die Phase nicht vorzeitig abbricht, wenn das Freigabesignal zu kurz ist. Dabei ist das Latch in der L- 
Phase von CCLK transparent und halt den Wert in der H-Phase. Das Freigabesignal gelangt auf das tJND-Gatter-Paar 
(1603 und 1604), das den Takt freigibt. Uber einen Inverter (1605) wird das invertierte Taktsignal !CLK erzeugt, CLK 
25 lauft um die Phasengleichheit zu gewahrleisten durch ein Verzogerungsglied (1606) (siehe Timing-Diagramm "One-Shot 
Betrieb"). Dabei wird CCLK in der Zuleitung zu 1604 uber zwei Verzogerungszeitungen (1610) verzogert um Phasen- 
gleichheit zum an 1603 anliegenden CCLK, das durch den Multiplexer (1608) verzogert wurde, zu gewahrleisten. Wird 
eine PAE in den PowerSave-Mode gebracht, wird die Versorgungsspannung der Zelle weitgehend ausgeschaltet. Dies 
geschicht iibcr das ODER-Gattcr 1611. Ist der PowcrSavc-MODE cingcschaltct, d. h. PowcrSavc = 1, ftihrt das ncgicrtc 
30 Signal L. Ist zudem der OneShot-MODE eingeschaltet und das Register 1602 auf L, wird uber das OneShotPowerSave- 
Signal der Spannungsversorgungsiransistor in der Power-UNIT (vgL Fig. 17) abgeschaltet. Stent das Register 1602 je- 
doch auf logisch 1 (oder PowcrSavc = 0), wird der Spannungsversorgungsiransistor iibcr 1611 cingcschaltct. Die fol- 
gende Tabelie gibt einen Oberblick uber die Funktion: 



PowerSave 


Latch (1602) 


Spannung 


Bemerkung 


L 


X 


an 




H 


L 


aus 


nur wenn OneShot- 
MODE gesetzt! 


H 


H 


an 





Beim Einschalten der Versorgungsspannung entsteht eine zeitlich bestimmte Aufwachzeit, bis die Zelle arbeitsfahig 
ist. Um dennoch ordentlich zu funktionieren, miissen die Signale entsprechend verzogert werden. Hierzu wird CCLK 
uber eine Verzogerungsleitung (1607) geleitet. Ein Multiplexer (1608) wahlt entsprechend dem Signal PowerSave aus F- 
45 PLUREG aus, ob der normale oder verzSgerte Takt an die Zelle geleitet wird. VerzOgert wird nur der nicht invertierte 
Takt um den Zeitraum APowerOn, der invertierte Takt wird nicht verzogert. Dadurch steht das Ergebnis synchron zu den 
resUichen Bausteinfunktionen zur Verfugung. Dadurch verringert sich die nutzbare Verarbeitungszeit auf Aprocess. Die 
maximale Taktfrequenz des Bausteines hangt somit von X = APowerOn + Aprocess ab (siehe Timing-Diagramm "OneS- 
hot Betrieb mit PowerSave"). 

50 

5. Begriffsdefinition 

AequalB-Odetect: Durch die EALU generiertes Signal, das bei arithmetischen Operationen anzeigt, daB das Ergebnis 
gleich null ist. Bei Vergleichen wird angezeigt, daB Operand A gleich Operand B ist. 
55 ALU: Arithmeusch logische Einheit. Grundeinheit zum Verarbeiten von Daten. Die Einheit kann arithmetische Ope- 
rationen wie Addiuon, Subtrakdon, unter Umstanden auch Multiplikation, Division, Reihenentwicklungen usw. durch- 
fuhren. Dabei kann die Einheit als ganzzahlige (integer) Einheit oder als FlieBkomma-(floating-point)-Einheit gestaltet 
sein. Ebenfalls kann die Einheit logische Operationen, wie UND, ODER, sowie Vfergleiche durchfuhren. 

BM-UNTT: Einheit zum Aufschalten der Daten auf die Bussysteme auBerhalb der PAE. Das Aufschalten geschieht 
60 liber Multiplexer fur die Dateneingange und Tore fur die Datenausgange. oACK-Leitungen sind als Open-Kollektor- 
Treiber implementiert. Die BM-UNIT wird durch das M-PLUREG gesteuert 

Broadcast: Senden von Daten einer PAE an mehrere Datenempfanger. 

CarryOut- AlessB: Durch die EALU generiertes Signal, das bei arithmetischen Operationen einen Ubertrag anzeigt 
Bei Vergleichen wird angezeigt, daB Operand A kleiner als Operand B ist. 
65 Datenempfanger Die Einheit(en), die Ergebnisse der PAE weiterverarbeiteiAarbeiten. 

Datensender: Die Hnheit(en), die Daten filr die PAE als Operanden zur Verfilgung stellt/stellen. 

D-FlipFlop: Spcichcrclcmcnt, welches cin Signal bei der steigenden Rankc cincs Taktcs speichert, 

EALU: Erweiterte arithmetisch logische EinheiL ALU, die um Sonderfunktionen, die zum Betrieb einer Datenverar- 
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beitungseinrichtung gemaB DE 441 1 6 881 Al benotigt wcrden oder sinnvoll sind crweitert wurde. Dies sind ins beson- 
dere Zahler. 

FPGA: Programmierbarer Logikbaustein. Stand der Technik. 

F-PLUREG: Register in dem die Funktion der PAE gesetzt wird. Ebenfalls wird der OneShot- und Sleep-Mode ge- 
setzt. Das Register wird von der PLU beschrieben. 5 

Gatter: Gruppe von Transistoren, die eine logische Grundfunktion durchfuhren. Grundfunkrionen sind z. B. NAND, 
NOR, Transmission-Gates. 

H-Pegel: Logisch 1 Pegel, abhangig von der verwendeten Technologic 

Handshake: Signalprotokoll, hei dem ein Signal A einen Zustand anzeigt und ein anderes Signal B hestatigt, daB es Si- 
gnal A akzeptiert und darauf, reagiert (hat). 10 

Konfigurieren: Bestimmen der Funktion und Vernetzung einer logischen Einheit, einer (FPGA)-Zelle oder einer PAE 
(vgl. umkonfigurieren). 

Latch: Speicherelement, das ein Signal fur gewohnlich wahrend des H-Pegels transparent weiterleitet und wahrend 
des L-Pegels speichert. In PAEs werden teilweise Latches gebraucht, bei denen die Funktion der Pegel genau umgekehrt 
ist. Hicrbci wird vor den Takt cincs iiblichcn Latch cin Inverter gcschaltct. is 

L-Pegel: Logisch 0 Pegel, abhangig von der verwendeten Technologic 

M-PLUREG: Register in dem die Vernetzung der PAE gesetzt wird. Das Register wird von der PLU beschrieben. 
Next-Neighbour Vernetzung: Vernetzung dcrBussystcmc mil den an den Kantcn anstoBcndcn Nachbam. 
O-MUX: Multiplexer innerhalb der BM-UNIT, der das Bussystem der Operanden auswahlL 

OneShot: Modus in dem eine PAE mit einem geringeren als dem Prozessortakt arbeitet. Der Takt ist synchron zum 20 
Prozessortakt und enlsprichL einer Periodc Eine Phasenverschiebung existierl nichL Der Takt wird iiber eines der Signale 
oRDY(l/2) oder rRDY freigegeben. Dieser Modus dient der Stromeinsparung, wenn die Datensender oder -empfanger 
langsamer als der Prozessortakt Daten senden oder empfangen. 

Open-Koliektor: Schaltungstechnik, bei der der Kollektor eines Transistors an einem, uber einen Pullup auf den H-Pe- 
gel gezogenen, Bussignal liegt. Der Emitter der Transistors liegt auf Masse. Schaltet der Transistor, so wird das Bussi- 25 
gnal auf den L-Pegel gezogen. Vorteil des Verfahrens ist, daB eine Mehrzahl solcher Transistoren den Bus ohne elektri- 
sche Kollision steuem konnen. Dabei sind die Signale ODER-verkiipft, es entsleht das sog. wired-OR. 

O-REG: Operandenregister zur Speicherung der Operanden der EALU. Ermoglicht die zeitliche und funktionelle Un- 
abhangigkeit der PAE von den Datcnscndcm, Dadurch wird der Transfer der Datcn .vcrcinfacht. da cr asynchron oder pa- 
ketorientiert stattfinden kann. Gleichzeitig wird die Moglichkeit geschafifen die Datensender unabhangig von der PAE 30 
oder die PAE unabhangig von den Datensendern umzukonfigurieren. 

O-REGsft: O-REG mitdurch SM-UNTT gcstcucncm Schicbcrcgistcr. 

PA: Processing Array: Array aus PAEs. 

PAE: Processing Array Element: EALU mit O-REG. R-REG. R2 O-MUX, F-PLUREG, M-PLUREG, BM-, SM-, 
Syne-, StateBack- und Power-UNIT. 35 

PLU: Einheit zum Konfigurieren und Umkonfigurieren der PAE, Ausgestaltet durch einen speziell an seine Aufgabe 
angepaBten Mikrokontroller. ' 

PowerSave-MODE: Stromsparmodus Modus innerhalb des OneShot-MODE. Wahrend keine Operation ausgefuhrt 
wird werden alle Teile der PAE mit Ausnahme des F-, M-PLUREG und Sync-UNIT nicht mit Spannung versorgt. 
Power-UNTT: Einheit die die Stromsparfunktionen regelt. 40 
PullDown: Widerstand. der eine Busleitung auf einen L-Pegel zieht. 
PullUp: Widerstand, der eine Busleitung auf einen II- Pegel ziehL 

R-GATE: Schalter innerhalb der BM-UNTT, der das Ergebnis auf das entsprechende Bussystem aufschaltet Dabei 
sind einige Signal iiber als Open-Kollektor-Treiber aufgeschaltct. Das R-G ATE arbeitet als Bustreiber und kann in einen 
busneutralen Modus gehen. 45 

R20-MUX: Multiplexer zum Einschleifen des Ergebnisses in einem R-REG-sft in den Datenpfad zwischen O-REG 
und EALU. 

R-REGsft: Ergebnisregister zur Speicherung des Ergebnis der EALU. Ermdglicht die zeitliche und funktionelle Un- 
abhangigkeit der PAE von den Datenempfangern. Dadurch wird der Transfer der Daten vereinfacht, da er asynchron oder 
paketorientiert stattfinden kann. Gleichzeitig wird die Moglichkeit geschaffen die Datenempfanger unabhangig von der 50 
PAE oder die PAE unabhangig von den Datenempfangern umzukonfigurieren. Das Register ist mit einer Schiebfunkuon 
versehen, die von der SM-UNTT gesteuert wird. 

serielle Operationen: Operationen, die durch serielles Abarbcitcn eines Datenwortes oder eines Algorithmus durchge- 
fiihrt werden. Serielle Multiplikation, serielle Division, Rcihenentwicklung 

Sleep-MODE: Stromsparmodus in dem die PAE mit Ausnahme von F-PLUREG ohne Spannung ist. 55 
SM-UNTT: StateMachine-UNTT. Zustandsmaschine, die die EALU steucrt. 

StateBack-UNIT: Einheit, die die Ruckmeldung der Statussignalc an die PLU steuert. Bestehend aus einem Multiple- 
xer und einer Open-KoUektor-Bustreiberstufe 

Sync-UNIT: Einheit, die die Synchronisation der PAE mil den Datcnscndcm und -cmpfangem Ubemirnmt, sowie das 
Umkonfigurieren von PAEs uberwachL Gleichzeitig werden die OneShot-Funktionen ubemommen. 60 

Tor: Schalter, der ein Signal weiterleitet oder spent Einfacher Vfcrgleich: Relais 
Umkonfigurieren: Neues Konfigurieren von einer beliebigen Menge von PAEs wahrend eine beliebige Restmenge von 
PAEs ihreeigenen Funktionen fortsetzen (vgl. konfigurieren). 

Zustandsmaschine: Logik, die diversen Zustanden annehmen kann. Die Obergange zwischen den Zustanden sind von 
verschiedenen Eingangsparametern abhangig. Diese Maschinen werden zur Steuerung komplexer Funktionen eingesetzt 65 
und entsprechen dem Stand der Technik. 
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6. Konventionen 
6.1 Namenskonveniion 

5 Baugruppe: -UNIT 

Betriebsart: -MODE 

Multiplexer: -MUX 

Negiertes Signal: not- 

Register fur PLU sichthar -PLUREG 
10 Register intern: -REG 

Schieberegisters: -sft 

6.2 Funktionskonvcntion 

15 Schicbcrcgistcn sft 
UND-Funktion: & 
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Patentanspriiche 

1. Konfigurierbare und zur Laufzeit umkonfiguricrbarc Einheit zur Vferarbeitung von nuraerischen und logischcn 
Operationeo (PAE), zum Einsatz in Prozessoren (CPUs). Mehrrechnersystemen, DatenfluBprozessoren (DFPs), Di- 
55 gitalen Signal Prozessoren (DSPs), systolischen Prozessoren und programmierbaren Logikbausteinen (FPGAs), ge- 
steuert von einer Ladelogik (PLU), dadurch gekcnnzeichnet, dafl 

1. eine programmierbare Recheneinheit (HALU) zur Durchfuhrung der mathematischen und logischen 
Grundrunktionen besteht, 

2. die Funkuon und Vernetzung der Recheneinheit in Register programmiert wird und eine Vielzahl von Da- 
60 ten, ohne Umprogrammierung der PAE, verarbeitet werden kann. 

3. zur Steuerung der Recheneinheit (EALU) eine Zustandsmaschine (SM-UNTT) existiert, 

4. Register fiir jeden Operanden (OREG) und das Ergebnis (R-REG) bestehen, wobei die Register teilweise 
als Scheiberegister ausgefuhrt werden konnco, 

5. eine Riickkopplung der Daten des Ergebnisregisters auf einen Eingang der EALU iiber einen Multiplexer 
65 (R20-MUX) besteht, 

6. eine Buseinheit (BM-UNIT) den Abgriff der Daten von einern Bussystem errnoglicht bzw. das Einspeisen 
des Ergcbnisscs auf cin Bussystem, wobci die Buseinheit Daten an mchrcrc Empfangcr versenden kann und 
die Synchronisierung auch mehrerer Empfangcr autornatisch erfolgt. 
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7. der Buszugriff von der Datenverarbeitung in der EALU iiber die Register enlkoppelt ist und somit jede PAE 
als unabhangige Einheit betrachtet werden kann, ins besondere die Konfiguration und Umkonfiguradon eine 
PAE keineo storenden EinfluB auf die Datensender und -empfanger; sowie die unabhangigen PAEs hat, 

8. der Ablauf der Bustransfers iiber eine Zusiandsmaschine (SYNC-UNIT) automatisch gesteuert wird und 
dafiir die Handshake-Leitungen oRDY, oACK, rRDY und rACK zur Verfugung stehen, 5 

9. Ruckmeldungen an die PLU zur Erkennung des Zusrandes der Verarbeitung und der Umkonfigurierbarkeit 
der PAE erfolgen (StateBack-UNTT). 

2. Einheit nach Anspruch 1, dadurcb gekennzeichnet, da6 die Datenverarbeitung einer PAE angehalten werden 
kann (Einfrag STOP in F-PLUREG) und die PAR daraufhin nach Vollendung der gerade laufenden Datenverarbei- 
tung ihre Bereitschafl zur Umkonfiguradon anzeigt (ReConfig). io 

3. Einheit nach Anspruch 1, dadurch gekennzeichnet, daB Stromsparmodi exisderen, 

- in welchen die PAE immer nur dann arbeitet, wenn Operanden vom Datensender am Eingang bereitstehen 
und das Ergebnis bereits vom Empfanger angenommen wurde, und die PAE ansonsten ohne Takt statisch 
bleibt, 

- in wclchcn Tcilbcrcichc der PAE, die zur Ausfuhrung der momcntancn Datenverarbeitung irrelevant sind, 15 
von der Takt- und/oder Stromversorgung getrennt sind, 

- in welchen die PAE von der Spannungsversorgung getrennt ist. 
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